Inleiding Statistiek

Bennett Kleinberg

Week 10

Week 10

Statistische power (onderscheidend vermogen)

  • Deel 1: Wat is statistische power?
  • Deel 2: Hoe berekenen we statistische power?

Deel 1: Wat is statistische power?

Terug naar week 4

Twee soorten fouten: Type 1 fouten en Type 2 fouten

Type 1 fouten

Analogie: vals-positieven

We concluderen dat er een verschil is (een effect), maar het is vals alarm (in werkelijkheid is er geen effect).

In hypothese-termen: we verwerpen de nul, maar hadden dat niet moeten doen.

Type 1 fouten

Die fout willen we laag houden.

D.w.z. we willen heel zeker weten dat er een effect is.

Dit zit allemaal vervat in het alpha-niveau: onder de nul ligt een proportie van precies \(\alpha\) in het kritieke gebied.

Voor \(\alpha=0.01\) ligt 1% van de waarden onder de nul in dat gebied.

Dus: in 1% van de gevallen zullen we ten onrechte concluderen dat er een effect is.

Vandaag: Type 2 fouten

Analogie: gemiste effecten.

We concluderen dat er geen verschil is, maar in werkelijkheid is dat er wel (d.w.z. we missen het effect).

In hypothese-termen: we verwerpen de nulhypothese niet, hoewel we dat wel hadden moeten doen.

Deze foutenterm wordt \(\beta\) genoemd.

Inferentiefouten

  • Type I-fouten: deze houden we laag door \(\alpha\) laag in te stellen
  • Type II fouten: ook deze willen we laag houden!

Maar er is geen free lunch in de statistiek!

Statistische power

  • De Type II fout is het niet verwerpen van de nulhypothese als we dat hadden moeten doen
  • de waarschijnlijkheid van deze fout wordt \(\beta\) genoemd.

De statistische power (=het onderscheidend vermogen) van een test is \(1-\beta\).

Power en \(\beta\)

Statistische power

Een andere manier om statistische power te begrijpen:

Statistische power is de kans dat een (hypothese)test \(H_0\) correct verwerpt.

Grafische uitleg

  • stel dat we de IQ score testen:
    • de IQ-scores zijn normaal verdeeld met \(\mu=100\) en \(\sigma=15\).
    • we geven nu een steekproef van \(n=20\) 3 kopjes espresso voor ze de IQ test doen
    • stel dat de espresso-truc pure magie is: het leidt tot een verschuiving in +0.50 SD (7.5 punten)

\(H_0: \mu= 100\)

\(H_0\) verdeling

Espresso trick verdeling

Allebei

Stapsgewijs

  1. Definieer alpha als \(\alpha=.05\)
  2. eenzijdig kritische z-waarde: \(z=1.65\)
  3. vertaalt zich in \(1.65 = \frac{M-100}{\sigma_M} \leftrightarrow 1.65 = \frac{M-100}{3.35} \leftrightarrow M = 105.53\)

We weten dus dat de kritische regio begint bij \(M=105.53\) (voor \(n=20\))

\(\alpha\)

De fouten lokaliseren

  • we kunnen nu zeggen dat “het groen gebied” = kritieke regio waar we \(H_0\) verwerpen met \(n=20\)
  • dus “groen” = \(\alpha\)
  • dus kunnen we ook zeggen waar \(\beta\) is

\(\alpha\) en \(\beta\)

De fouten lokaliseren

  • we kunnen nu zeggen dat “het groen gebied” = kritieke regio waar we \(H_0\) verwerpen met \(n=20\)
  • dus “groen” = \(\alpha\)
  • dus kunnen we ook zeggen waar \(\beta\) is
    • \(\beta\) [=“blauw”] is het gebied (waarschijnlijkheid) waar we \(H_0\) niet verwerpen hoewel we dat wel hadden moeten doen!

Bringing it all together

  • Als we de kans op \(\alpha\) kennen, dan kennen we \(1-\alpha\) onder de nul.
  • en als we \(\beta\) kennen, dan kennen we \(1-\beta\)

\(1-\alpha\)

\(1-\beta\)

Bringing it all together

  • het “lichtblauwe” gebied is \(1-\beta\) = statistisch onderscheidingsvermogen

Dus als we de power willen vergroten [=lichtblauw], waarom maken we dan \(\beta\) [=donkerblauw] niet kleiner?

De relatie tussen \(\alpha\) en \(\beta\)

  • de grens van \(\alpha\) voor \(H_0\) is ook
  • de grens van \(\beta\) voor \(H_A\)

Minder strenge \(\alpha\)

Strengere \(\alpha\)

Altijd een compromis!

  • als we \(\alpha\) strenger maken (=verlagen), verhogen we \(\beta\), dus verlagen we de statistische power \(1-\beta\)
  • als we \(1- \beta\) verhogen, verlagen we \(\beta\), dus verhogen we de Type I fout \(\alpha\)

Twee oplossingen

  • de steekproefgrootte \(n\) vergroten

Van \(n=20\) naar \(n=40\)

Van \(n=20\) naar \(n=100\)

Twee oplossingen

  • grotere steekproefgrootte \(n\)
  • grotere effecten

Cohen’s d

  • \(d=\frac{\mu_{treatmemt} - \mu_0}{\sigma} = \frac{107.50 - 100}{15} = 0.5\)

Wat als we \(d\) verdubbelen?

Van \(d=0.5\) naar \(d=1.0\)

Factoren die een rol spelen

  • Statistisch onderscheidingsvermogen neemt toe als we:
    • de \(n\) verhogen
    • de effectgrootte van belang vergroten
    • de waarde van \(\alpha\) verhogen
  • Statistisch vermogen neemt af als we:
    • de waarde van \(n\) verlagen
    • de effectgrootte van belang verkleinen
    • de \(\alpha\) verlagen

Deel 2: Hoe berekenen we statistische power?

Ons voorbeeld

  • IQ-scores die normaal verdeeld zijn met \(\mu = 100\) en \(\sigma = 15\)
    • we geven nu een steekproef van \(n=20\) 3 kopjes espresso voordat ze de IQ test doen
    • stel dat de espresso-truc pure magie is: het leidt tot een volledige verschuiving in +0.50 SD (7.5 punten)

Stappen om het onderscheidingsvermogen te berekenen

  1. Kritisch gebied onder \(H_0\)
  2. Regio in \(H_A\) “voorbij” de kritische regio van \(H_0\)

Kritisch gebied

  1. voor \(\alpha=.05\)
  2. eenzijdig kritische z-waarde: \(z=1.65\)
  3. vertaalt zich in \(1.65 = \frac{M-100}{\sigma_M} \leftrightarrow 1.65 = \frac{M-100}{3.35} \leftrightarrow M = 105.53\)

Dit is de waarde onder \(H_0\) die het kritieke gebied van “statistische significantie” afbakent.

Elke \(M > 105.53\) betekent dat we \(H_0\) verwerpen.

Statistisch vermogen gaat over \(H_A\):

  • dus hebben we de waarschijnlijkheid onder \(H_A\) nodig voor waarden die groter zijn dan de kritische waarde van \(H_0\)

Berekenen van power

[= lichtblauw]

  • kans onder \(H_A\) die groter is dan de kritische waarde van \(H_0\) (d.w.z. 105.53)

\(z=\frac{M-\mu}{\sigma_M} = \frac{105.53-107.50}{3.35} = -0.59\)

Dus weten we dat 105.53 in \(H_A\) overeenkomt met \(z=-0.59\).

De power is dus het lichaam van de verdeling!

Tabel opzoeking

  • Voor \(z=-0.59\):
  • aandeel in staart = 0.2776
  • aandeel in het lichaam = 0.7224

De statistische power is hier 0.7224.

We hadden een kans van 72.24% om \(H_0\) te verwerpen als we dat hadden moeten doen._

Een ander voorbeeld

  • IQ-score \(\sim N(100, 15)\)
  • Hersenvoeding belooft een toename van \(d=0.8\)

Wat is het bereikte statistisch vermogen voor \(n=40\) en \(\alpha=.01\)?

Stappen

  1. Kritische waarde onder \(H_0\)?

Nodig: staartwaarschijnlijkheid van \(p = .01\) –> \(z=2.32\)

Stappen

  1. Waarde die overeenkomt met kritieke z:

\(2.32 = \frac{M-100}{\sigma_M}\) met

  • \(\sigma_M = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{40}} = 2.37\)

Dus: \(2.32 = \frac{M-100}{2.37} \leftrightarrow M = 105.50\)

Stappen

  1. Verkrijgen van statistisch vermogen
  • kans onder \(H_A\) die groter is dan de kritische waarde van \(H_0\) (hier: 105.50)

Hiervoor moeten we iets meer weten over \(H_A\)

Stappen

We hebben het gemiddelde van \(H_A\) nodig:

  1. Gemiddelde van \(H_A\)
  • We weten dat \(d=0.8 \leftrightarrow 0.8 = \frac{M-100}{15} \leftrightarrow M = 112\)

Cohen’s d van 0.8 vertaalt zich naar een IQ van 112.

Stappen

Terug naar 3:

  • kans onder \(H_A\) die groter is dan de kritische waarde van \(H_0\) (hier: 105.50)

\(z=\frac{105.50-112}{2.37} = \frac{-6.50}{2.37} = -2.74\)

Exacte power

We weten dat de power het gebied in het lichaam (en bijbehorende waarschijnlijkheid) is, dus:

Power = .9969

Alles in één plot

In de live sessie

  • power berekening in voorbeelden met de hand en stap-voor-stap
  • extra voorbeeld over CI’s
  • verduidelijking van formules

Recap

  • de relatie tussen soorten inferentiefouten (Type I en Type II)
  • het verband tussen power en steekproefgrootte, effectgrootte en alpha
  • berekening van het onderscheidingsvermogen met de hand

Volgende week

Correlatie